Telegram Group Search
🎙️ TensorFlowTTS — открытая библиотека для синтеза речи на TensorFlow 2, объединяющая современные архитектуры вроде Tacotron-2, FastSpeech2 и MelGAN. Проект позволяет не только экспериментировать с нейросетевым синтезом, но и развернуть готовое решение на мобильных устройствах благодаря поддержке TFLite.

Проект имеет унифицированный интерфейсе для разных моделей, что упрощает сравнение и комбинирование архитектур. Библиотека уже поддерживает несколько языков (английский, китайский, корейский, французский, немецкий) и предлагает инструменты для адаптации под новые языки.

🤖 GitHub

@machinelearning_interview
📚 9 AI-гайдов от OpenAI, Google и Anthropic

🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!

1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf

4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf

5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents

6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion

8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering

Лучшие практики от лидеров индустрии.
🤖 Почему модели лучше отвечают на вопросы по тексту, чем по изображениям — и как это исправить?

Vision-Language модели (VLMs) сильно хуже справляются с вопросами про картинки (*«Сколько книг на изображении?»*), чем с теми же вопросами по тексту (*«Сколько книг в описании?»*). И нашли способ улучшить результат на +4.6%, закрыв треть разрыва между модальностями! Вот что они сделали 👇

🔬 Они разделили вход на три части:
Данные (изображение или текст),
Вопрос (*how many…*),
Ответ (предсказание последнего слова).

🧠 Что нашли:

1️⃣ Мозги у модели разные для текста и картинок — цепочки внимания и нейроны почти не совпадают (всего ~18%). Особенно в частях, где обрабатываются данные и вопрос.

2️⃣ Часть, отвечающая за генерацию ответа, похожа — можно даже подменить её между модальностями, и модель почти не теряет в точности.

3️⃣ Часть, которая "смотрит" на данные — строго модальная. Визуальный поток информации идёт по другому пути, и замена разрушает результат.

4️⃣ Проблема в том, что изображение “становится понятным” слишком поздно. В поздних слоях визуальные данные уже похожи на текстовые — но модель не успевает этим воспользоваться.

💡 Решение: "перемотать" визуальные данные из поздних слоёв обратно в ранние (back-patching) — это помогает модели раньше "понять" картинку.

📈 Результат: +4.6% точности при ответах на вопросы по изображению — и треть разрыва с текстом закрыта!

🧩 Вывод: архитектура не виновата. Просто визуальные данные нужно правильно "подать" — и VLM начинает думать почти как человек.

🔜 Читать статью полностью

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ В Пекине запустят первый в мире 4S-центр для роботов с воплощенным ИИ.

По аналогии с автосалонами, робототехнический 4S будет предлагать полный цикл: продажи (Sales), сервис (Service), запчасти (Spare parts) и консультации/анализ (Surveys). Планируется зона с демонстрацией роботов в реалистичных сценариях – можно будет всё пощупать руками и увидеть их возможности в деле. Плюс создадут быструю сеть поставки комплектующих по стране и соберут профильную команду для сборки, ремонта и обслуживания машин.

Первыми партнерами станут несколько лидеров сферы: UBTECH и Galaxea. Откроется центр в августе на базе промпарка в районе Ичжуан на юге столицы.
english.news.cn

✔️ Браузер Dia выходит в бета-версию.

The Browser Company открыл доступ к бета-версии браузера Dia (по инвайтам). Dia позиционируется как решение, где ИИ глубоко интегрирован в самую суть взаимодействия, он встроен прямо в рабочий процесс пользователя, избавляя от необходимости постоянно ходить на сайты ChatGPT или Claude.

Dia построен на Chromium, так что интерфейс многим знаком. Главная фича — умная адресная строка: она работает и как поиск, и как чат-бот с ИИ. Помощник умеет искать в сети, суммировать загруженные файлы, автоматически переключаться между режимами. Можно даже спросить его о содержимом всех открытых вкладок или попросить составить черновик на их основе.

Настройки производятся через диалог с ботом: можно задать тон, стиль письма, параметры для кода. Опция History (по желанию) позволяет браузеру использовать недельную историю просмотров как контекст для ответов. А функция Skills помогает создавать мини-скрипты — ярлыки для сложных настроек или действий.
techcrunch.com

✔️ Mistral запускает вычислительную альтернативу облачным гигантам.

Mistral AI анонсировала Mistral Compute - инфраструктурную платформу для разработки и запуска ИИ. Это полноценный приватный стек: от GPU и систем оркестрации до API и сервисов. На выбор любой формат, от bare-metal до полностью управляемой PaaS.

Mistral Compute нацелен дать государствам, компаниям и научным центрам, ищущих альтернативу решениям из США или Китая, возможность самим строить ИИ-среду под свои нужды и полностью ею владеть.

Платформа использует новейшие архитектуры NVIDIA, с доступом к десяткам тысяч GPU. Она создана командой с огромным опытом в HPC и обучении топовых ИИ-моделей. Ключевые акценты: устойчивость и суверенитет данных, инфраструктура соответствует строгим европейским нормам и работает на декарбонизированной энергии.
mistral.ai

✔️ ByteDance анонсировала text-to-video модель Seedance 1.0.

Seedance 1.0 - новая генеративная модель для создания видео, которая, по утверждениям ByteDance, превосходит конкурентов в точности выполнения запросов, качестве движений и резкости изображения. В тестах на Artificial Analysis она лидирует в задачах text-to-video и image-to-video, обходя Google Veo 3, Kuaishou Kling 2.0 и OpenAI Sora. Модель справляется с длинными сценами, сохраняя стабильность персонажей и переходов между ракурсами, но пока не поддерживает добавление звука.

Seedance 1.0 генерирует 5-секундный Full HD-ролик за 41 секунду — это быстрее аналогов, хотя новый Google Veo 3 Fast может нивелировать это преимущество. Инструмент планируют внедрить в платформы Doubao и Jimeng. Целевая аудитория — от профессиональных видеомейкеров до обычных пользователей.
seed.bytedance.com

✔️ Midjourney открыла публичное тестирование своей видеомодели.

Midjourney объявила о начале открытого тестирования модели генерации видео по текстовым запросам. Задача тестирования собрать обратную связь для улучшения алгоритма.

Создатели пригласили сообщество принять участие в онлайн-рейтинге сгенерированных роликов, присоединиться можно по ссылке. Пока некоторые образцы выглядят достойно и сохраняют фирменный стиль Midjourney, но в целом результаты пока нестабильны.

Компания подчеркивает: это не финальная версия модели, а лишь первый шаг. Дополнительные сессии тестирования уже запланированы, но дату релиза и цену пока не раскрывают.
midjourney.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Успех в IT = скорость + знания + окружение

Здесь ты найдёшь всё это — коротко, по делу и без воды.
Пока другие ищут, где “подглядеть решение”, ты уже используешь самые свежие инструменты!

AI: www.tg-me.com/ai_machinelearning_big_data
Python: www.tg-me.com/pythonl
Linux: www.tg-me.com/linuxacademiya
Собеседования DS: www.tg-me.com/Machine learning Interview/com.machinelearning_interview
C++ www.tg-me.com/cpluspluc
Docker: www.tg-me.com/DevopsDocker
Хакинг: www.tg-me.com/linuxkalii
Devops: www.tg-me.com/DevOPSitsec
Data Science: www.tg-me.com/data_analysis_ml
Javascript: www.tg-me.com/javascriptv
C#: www.tg-me.com/csharp_ci
Java: www.tg-me.com/java_library
Базы данных: www.tg-me.com/sqlhub
Python собеседования: www.tg-me.com/python_job_interview
Мобильная разработка: www.tg-me.com/mobdevelop
Golang: www.tg-me.com/Golang_google
React: www.tg-me.com/react_tg
Rust: www.tg-me.com/rust_code
ИИ: www.tg-me.com/vistehno
PHP: www.tg-me.com/phpshka
Android: www.tg-me.com/android_its
Frontend: www.tg-me.com/front
Big Data: www.tg-me.com/bigdatai
МАТЕМАТИКА: www.tg-me.com/data_math
Kubernets: www.tg-me.com/kubernetc
Разработка игр: https://www.tg-me.com/gamedev
Haskell: www.tg-me.com/haskell_tg
Физика: www.tg-me.com/fizmat

💼 Папка с вакансиями: www.tg-me.com/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: www.tg-me.com/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: www.tg-me.com/addlist/eEPya-HF6mkxMGIy
Папка ML: https://www.tg-me.com/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://www.tg-me.com/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: www.tg-me.com/memes_prog
🇬🇧Английский: www.tg-me.com/english_forprogrammers
🧠ИИ: www.tg-me.com/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://www.tg-me.com/addlist/BkskQciUW_FhNjEy

Подпишись, если хочешь быть в числе тех, кого зовут в топовые проекты!
🧠 Anthropic представила мультиагентную систему для Claude

В новой функции Research агент‑координатор (LeadResearcher) создаёт субагентов, которые параллельно ищут, анализируют и структурируют информацию. Это мощный шаг к превращению LLM в полноценный исследовательский инструмент.

📌 Почему это важно:
• Субагенты работают независимо и параллельно
• Каждый из них имеет свой контекст и специализацию
• Главный агент объединяет результаты и выдаёт финальный отчёт
• CitationAgent добавляет корректные ссылки

📊 Результат:
Внутренние тесты показали: Claude с мультиагентной системой превзошёл одиночную модель на +90 % при анализе компаний S&P 500.

💡 Модель теперь не просто отвечает — она планирует, координирует и исследует.

⚠️ Минусы:
• в 4× больше токенов
• в 15× дороже
• не годится для задач с общей памятью (например, программирование)

🔍 Но если нужно глубокое исследование — Claude Research действительно экономит часы и дни человеческой работы.

📌 Читать
2025/06/15 06:26:52
Back to Top
HTML Embed Code: